AI资讯新闻榜单内容搜索-KV cache

小米给KV Cache减负80%！MiMo团队推出混合稀疏注意力架构

小米MiMo大模型团队，加入AI拜年战场——推出HySparse，一种面向Agent时代的混合稀疏注意力架构。

来自主题: AI技术研报

7260 点击 2026-02-08 11:53

近期，来自墨尔本大学和华中科技大学的研究者们发布了一篇深度综述，从 MLSys 的思维出发，用一套新颖的「时间 - 空间 - 结构」系统行为视角对 KV cache 优化方法进行了系统性梳理与深入分析，并将相关资源整理成了持续维护的 Awesome 资源库，方便研究者与从业人员快速定位与落地。

来自主题: AI技术研报

5676 点击 2026-01-16 14:24

基于扩散的大语言模型 (dLLM) 凭借全局解码和双向注意力机制解锁了原生的并行解码和受控生成的潜力，最近吸引了广泛的关注。例如 Fast-dLLM 的现有推理框架通过分块半自回归解码进一步实现了 dLLM 对 KV cache 的支持，挑战了传统自回归 LLMs 的统治地位。

来自主题: AI技术研报

6007 点击 2025-12-11 10:42

我们都知道 LLM 中存在结构化稀疏性，但其底层机制一直缺乏统一的理论解释。为什么模型越深，稀疏性越明显？为什么会出现所谓的「检索头」和「检索层」？

来自主题: AI技术研报

9623 点击 2025-11-13 15:19

自回归（AR）大语言模型逐 token 顺序解码的范式限制了推理效率；扩散 LLM（dLLM）以并行生成见长，但过去难以稳定跑赢自回归（AR）模型，尤其是在 KV Cache 复用、和可变长度支持上仍存挑战。

来自主题: AI技术研报

7781 点击 2025-10-27 16:46

北大华为联手推出KV cache管理新方式，推理速度比前SOTA提升4.7倍！大模型处理长序列时，KV cache的内存占用随序列长度线性增长，已成为制约模型部署的严峻瓶颈。

来自主题: AI技术研报

7000 点击 2025-10-22 14:52

只用 1.5% 的内存预算，性能就能超越使用完整 KV cache 的模型，这意味着大语言模型的推理成本可以大幅降低。EvolKV 的这一突破为实际部署中的内存优化提供了全新思路。

来自主题: AI技术研报

7543 点击 2025-09-15 08:33

推理大模型虽好，但一个简单的算数问题能推理整整三页，还都是重复的“废话”，找不到重点……

来自主题: AI技术研报

8235 点击 2025-06-16 15:50

首个用于加速扩散式大语言模型（diffusion-based Large Language Models, 简称 dLLMs）推理过程的免训练方法。

来自主题: AI技术研报

10824 点击 2025-05-27 16:22

在InternVL-2.5上实现10倍吞吐量提升，模型性能几乎无损失。

来自主题: AI技术研报

7621 点击 2025-04-03 16:12